Tối ưu hóa lồi: Những nguyên lý cơ bản về xấp xỉ chuẩn

Hãy tưởng tượng bạn là một thợ may đang cố gắng điều chỉnh một bộ vest tiêu chuẩn (phạm vi của ma trận $A$) cho một khách hàng có tỷ lệ cơ thể đặc biệt (vectơ $b$). Dù bạn có điều chỉnh tay áo hay vòng eo (các hệ số $x$) thế nào đi nữa, bộ vest cũng sẽ không bao giờ vừa vặn hoàn hảo. Bạn đang tìm kiếm một "giải pháp tối ưu" – một xấp xỉ chuẩn giúp giảm thiểu sự căng thẳng hoặc "dư thừa" tại mọi đường may.

Khung toán học

Mục tiêu cốt lõi là tìm một vectơ $x \in \mathbb{R}^n$ sao cho tổ hợp tuyến tính $Ax = x_1a_1 + \dots + x_na_n$ xấp xỉ tốt nhất với $b$. Điều này thường được gọi là phép hồi quy của $b$ lên các biến độc lập (các cột của ma trận $A$).

Chúng ta tập trung vào vectơ dư $r = Ax - b$. Trong thực tế, ta thường giả sử một hệ thống hệ quá xác định trong đó $m > n$. Tại sao? Vì khi $m = n$ và ma trận $A$ khả nghịch, điểm tối ưu đơn giản là $A^{-1}b$, dẫn đến sai số bằng không – một trường hợp tầm thường trong tối ưu hóa.

🎯 Nguyên lý cốt lõi

Bài toán xấp xỉ chuẩn (6.1) là một bài toán lồi và luôn được đảm bảo là có nghiệm. Luôn tồn tại ít nhất một nghiệm tối ưu $\hat{x}$ giúp cực tiểu hóa khoảng cách giữa mục tiêu và không gian đạt được.

Các dạng chuẩn

Tùy theo loại sai số mà chúng ta muốn trừng phạt, ta chọn các chuẩn khác nhau:

1. Bình phương nhỏ nhất ($\ell_2$)

Phương pháp phổ biến nhất. Nó cực tiểu hóa tổng bình phương các sai số dư: $\|Ax - b\|_2^2$. Phương pháp này nhạy cảm với các giá trị ngoại lai lớn nhưng lại mang lại lời giải chính xác thông qua các phương trình bình phương.

2. Chebyshev / Tối thiểu hóa cực đại ($\ell_\infty$)

Cực tiểu hóa giá trị cực đại tuyệt đối $\max_i |r_i|$. Phương pháp này được dùng khi mỗi phép đo đều phải nằm trong giới hạn nghiêm ngặt. Bài toán có thể được giải bằng chương trình tuyến tính (LP) sau:

cực tiểu hóa $t$
với điều kiện $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

3. Tổng các sai số tuyệt đối ($\ell_1$)

Cực tiểu hóa $\sum |r_i|$. Phương pháp này bền vững trước các giá trị ngoại lai vì nó không bình phương sai số. Đồng thời, bài toán cũng có thể giải được thông qua chương trình tuyến tính (LP):

cực tiểu hóa $\mathbf{1}^T t$
với điều kiện $-t \preceq Ax - b \preceq t$

Bối cảnh ước lượng

Trong nhiều lĩnh vực kỹ thuật, ta giả sử trạng thái thực $x$ bị che khuất bởi nhiễu: $y = Ax + v$. Mục tiêu của ta là tìm ước lượng $\hat{x} = \text{argmin}_z \|Az - y\|$. Việc chọn chuẩn tương ứng chính là việc đưa ra giả định về phân phối thống kê của nhiễu $v$.

\text{Cực tiểu hóa } \|u - b\| \text{ với điều kiện } u \in \mathcal{A} \quad (\text{trong đó } \mathcal{A} = \text{Phạm vi}(A))

CÂU HỎI 1

Trong bối cảnh xấp xỉ chuẩn, tại sao ta thường giả sử rằng $m > n$?

Vì nếu $m = n$, nghiệm sẽ là $x = A^{-1}b$ với sai số bằng không.

Để đảm bảo bài toán vẫn không lồi.

Vì chuẩn L1 yêu cầu nhiều biến hơn ràng buộc để có thể giải được.

Để đảm bảo ma trận A luôn suy biến.

CÂU HỎI 2

Phương trình quy hoạch tuyến tính (LP) nào dưới đây đúng với bài toán xấp xỉ Chebyshev (tối thiểu hóa cực đại)?

cực tiểu hóa $t$ với điều kiện $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

cực tiểu hóa $\mathbf{1}^T t$ với điều kiện $-t \preceq Ax - b \preceq t$

cực tiểu hóa $\|Ax - b\|_2$ với điều kiện $x \succeq 0$

cực tiểu hóa $t$ với điều kiện $Ax - b = t$

CÂU HỎI 3

Bạn đang hiệu chuẩn một cảm biến và muốn đảm bảo rằng không phép đo nào có thể lệch khỏi mô hình vượt quá một mức cố định. Bạn nên dùng chuẩn nào?

L∞ (Chebyshev)

L₁ (Tổng các sai số tuyệt đối)

L₂ (Bình phương nhỏ nhất)

Chuẩn Frobenius

CÂU HỎI 4

Điều gì đúng về tính khả giải của bài toán xấp xỉ chuẩn (6.1)?

Nó luôn khả giải và là bài toán lồi.

Nó chỉ khả giải nếu ma trận $A$ đối xứng.

Nó không lồi nếu dùng chuẩn L1.

Nó không có nghiệm nếu hệ thống là quá xác định.

CÂU HỎI 5

Trong biểu thức $y = Ax + v$, nếu $v$ biểu diễn nhiễu Laplace (có đuôi dày hơn nhiễu Gauss), chuẩn xấp xỉ nào là bền vững hơn về mặt thống kê?

L₁ (Tổng các sai số tuyệt đối)

L₂ (Bình phương nhỏ nhất)

L∞ (Chebyshev)

Chuẩn giả L₀